典型的 SEM 分析是由一系列代表特定研究假设的回归方程组成的。一个 SEM 模型不仅矢涉不同类型的变量的处理(例如, 观察变量与潜在变量、内生变量与 外源变量等), 也涉及不同关系形态的设定(例如, 回归、相关与残差估计等)。因 此, SEM 分析首先重视的就是模型的正确设定与呈现, 模型的设定除了依据前面 章节的介绍, SEM 分析尤其重视概念路径图的运用(如图 1.5), 路径图不仅可以 协助研究者呈现他们的研究架构, 更可以促成研究者与其他读者之间的沟通。 在 SEM 的应用中, 模型有两种呈现形式:概念模型(conceptual model)与 统计模型(statistical model 。概念模型主要在说明一个 SEM 研究当中所探讨的 概念间的关系, 可以利用路径图的形式呈现。该图是由 LISREL 软件 的 Path Diagram 指令产生的(点选对话框当中的 conceptual diagram 选项即可获 得)。读者可以利用 LISREL 的图形编辑对话框来增加或移除图 $1.5$ 中的模型内的 参数路径或变量形态, 或是移动位置来整理出美观的图形, 使用上非常便利。
在研究者发展概念模型时, 并不是要将所有的变量、参数、关系都无所遗漏 地标示在图中, 以呈现一个“看起来”完整的统计模型。当一个模型当中有越多需 要估计的参数时, 该模型越趋于复杂。从简效原则来看, 模型越复杂, 越不建议采 用。Hoyle 与 Panter(1995) 建议, 概念模型应能适当地反映研究者感兴趣的参数 或关系, 避免漫无目的地、缺乏理论根据地绘制模型。具体来说, 概念模型必须建 立在特定理论概念的基础上, 通过研究者的研究假设, 形成概念模型。 至于统计模型, 则是指可以利用分析工具加以检测的操作性模型 ( operational model)。这里所谓的操作性模型, 其意义就好比操作性定义 ( operational definition), 表示经过操作程序得到概念结果的整个程序。而此时的 操作性除了指符合统计运算的原理外, 同时也需符合统计分析工具的技术原理与 限制。 统计模型与概念模型的差别是概念模型可以利用路径图来具体说明, 但是统 计模型通常是进行 SEM 分析过程中的一些思考概念与计算原则, 而不是具体的 实体模型。例如, 我们要计算模型是否可以顺利地产生参数估计, 所以要计算模 型的识别度。此时, 根据识别原理发展出来的参数估计安排就是统讣模型的概 念; 或者, 为了使潜在变量能够量尺化, 我们可能会对某一些参数进行特殊设 定, 此时也是基于对统计模型的考虑。 通常, 统计模型最具体的呈现就是语法指令的内容。例如, 在一个 LISREL 语法当中会详细列举哪些参数是被估计参数、哪些参数是固定参数等讯息。然而 统计模型的真正内涵是概念模型得以进行估计分析的整个统计过程。
用于 SEM 分析的数据可以是原始数据或矩阵数据。SEM 分析的始祖 LISREL 最早使用的数据形态即是矩阵。由于影响数据质量的原因很多, 因此在进行 SEM 分析之前, 也必须先行进行资料完整性与正确性的筞检, 使得 SEM 分析可以在 一个干净、完整、正确的资料基础上进行。
Cudeck(1989)建议, SEM 分析最好使用协方差矩阵, 而非相关系数矩阵。 一般人或许会以为相关系数可以提供较为清楚的对变荲关系的描述, 因为相关系 数是标准化的系数, 数据介于-1 $-1$, 越接近 0 表示关系微弱, 越接近 $\pm 1$ 表 示线性关系明显。甚至, 有人误以为将经过标准化的相关系数输人 SEM 分析软 件后, 会有利于对标准化 SEM 参数的标准化数值的估计。 统计学的知识告诉我们, 相关系数是将协方差除以标准差所获得, 在一组变 量的协方差矩阵中, 不仅可以计算出协方差和方差, 也可以计算出相关系数。但 是, 利用相关系数矩阵来进行 SEM 分析并不能导出协方差数据, 除非我们另行 告知 LISREL、Mplus 和 Amos 等分析软件有关各变量的标准差数据。也就是说, 协方差矩阵能够涵盖相关系数矩阵, 最重要的是它能够推导出 SEM 分析所需的 各种重要数据, 例如, 变荲的方差与协方差等。 在输人矩阵数据时, 我们往往会将数据化简到小数点后第二位, 但是 Hoyle 与 Panter(1995)建议应增加至小数点后第三位, 以提高计算的精确度。尤其当 我们输人相关矩阵与标准差数据时, 如果小数点后的位数太少, 推导出的协方差 估计五的波动性增加,会间接造成模型拟合指数的降低, 不利于研究结果。一 般而言, 利用相关矩阵作为输人数据时, 在论文中应报告相关矩阵与标准差数 据; 利用协方差矩阵作为输人数据时, 在论文中也应附上矩阵数据, 以利查考 ( McDonald \& Ho, 2002 )。
除了矩阵资料之外, SEM 分析也可以直接读取原始资料来进行分析。当研究 者所使用的变量包括了类别或顺序变量时, 即无法产生协方差矩阵或相关矩阵, 此时必须先行处理这些非等距数据, 使其在格式上符合 SEM 分析的需求。这时候, 原始数据就显得格外重要。 另外, 原始数据的使用有助于多阶段 SEM 分析的进行。在许多研究中, 个变量的分数可能是由几个题目的相加求和(或相加求平均)来测得。在进行 SEM 分析之前, 研究者会先行利用其他软件先进行相加求和的工作, 再以原始数 据或矩阵数据的形态输人计算机中。但是, 这一动作也可以通过将相加求和前的 原始数据库输人 SEM 分析软件后, 以多阶层测量模型的估计程序来获得因素分 数, 而不是以相加求和的方式来获得变量分数。在有些 SEM 的分析上, 当以项 目层次 ( item-level) 的原始数据作为SEM 分析数据时, 有其不同的操作程序 例 如, 多重特质多重方法矩阵 ( multitrait-multimethod matrix, MTMM) 研究若以项 目层次来进行分析, 与以总分层次的原始数据输人 SEM 分析软件时得到的结果 可能不同, 但是都必须以原始数据作为输人数据。
SEM 分析的进行必须建立在一定的统计假设基础之上, 当违反统计假设时, SEM 分析的数据是值得怀疑的。因此, 一般撰写研究论文时, 应列举变量的分 布特征与统计假设的检验结果 ( Hoyle \& Panter,1995;McDonald \& Ho, 2002 )。 尤其是当研究者以矩阵数据作为输人数据时, 由于缺乏各变量的原始数据以助判 断变量的分布特性, 因此更需要揭示各变量的频数分布的特征, 证明变量的偏态 与峰度处在合宜的水平, 或是没有遗漏与偏离的状况。
Hoyle 与 Panter(1995)建议, 在撰写研究报告时, 应说明变量的正态性、 多变量正态性以及峰度的数据, 因为某些估计程序明显受到正态性不足的影响, 例如, 最大概似法与一般化最小平方法程序。所以, 完整清楚地列举检验结果 是保证研究报告正确性的一个负责任的做法。
SEM 分析涉及一连串的参数估计、模型检验与模型修饰的技术处理程序。因 此, 使用者必须非常熟悉每一个步骤的原理与目的, 才能理解报表的内容与分析 说明的重点。 在阅读分析软件的报表时, 应分别就两个层次的数据进行处理:第一层是过 程性的资料, 也就是在完成最终结论之前, 我们必须详细检阅 SEM 分析的各项
数据, 观察这些数据的状态, 必要时加以记录, 以备撰写报告之用; 第二层是最 终解 ( final solution) 的报告, 也就是 SEM 分析的最后结论的各种参数数据, 以 及模型拟合度的最终数据。这两项处理的完成有下列重要原则。
SEM 分析可以用不同的估计方法进行参数估计, 而不同的方法所得到的结果 也有所不同。因此, 在 SEM 的研究报告中应说明使用何种估计策略, 并说明为 配合该种策略, 有无特殊的处理 (例如, 关于样本规模的决定、变量经过正态校 正等 ), 使得读者可以清楚地了解 SEM 的各项参数是在何种基础上估计出来的。 一般而言, 最常用的估计方法是最大概似法(maximum likelihood, ML)。 ML 法的优点是在小样本时, 或是变量有不太理想的峰度时, 仍然可以获得理想 的参数估计数。因此, 对于 SEM 分析不熟悉的使用者可以直接使用 ML 法来进 行 SEM 分析。
模型拟合指数的功能是评估一个 SEM 模型是否与观测数据相拟合。在 SEM 的具体应用上, 拟合有两种意义:第一种是绝对拟合(absolute fit); 第二种是增 量拟合 ( incremental fit)。前者反映的是模型导出的协方差矩阵与实际观测的协方 差矩阵之间的拟合情形, 拟合度的数值大小, 表示模型导出数与实际观测数差异 的多弿。至于增量拟合, 则是指某一个模型的拟合度与另一个替代模型的拟合度 相比, 增加或减少了多少拟合度。例如, 一个模型假设潜在变量之间具有相关, 替代模型则假设潜在变量之间没有相关 (称为虚无或独立模型), 计算出两个模 型的拟合度差异量后, 推知何者较能拟合观测资料。
这两种拟合度的概念适用不同的模型拟合指数。然而, 所有的 SEM 分析都 应先报告卡方统计量以及与卡方统计量的计算有关的讯息(自由度、样本量、显 著性数据)。如果是经过校正的非正态性数据, 在报告传统的卡方值之外, 还应 报告调整后的卡方值(Scaled $\chi^2$; Satorra \& Bentler,1994)。 除此之外, 拟合指数 goodness-of-fit (GFI) index 可以说是每一个 SEM 研究都会报告的数据。因为 $G F I$ 指数的性质类似于回归分析的 $R^2$, 数值越大, 表示实际观察的协方差矩阵能够被假设模型解释的比例越高, 模型拟合度越佳。 $G F I$ 指数可以说是反映绝对拟合的最佳指数。
增量拟合的评估可以利用 $N N F I 、 I F I$ 等指数, 这些指数的基础是模型间的卡 方值差异值, 也就是 $\mathrm{Hu}$ 与 Bentler(1995) 所称的第二类指数。如果研究者使用 的是 ML 估计程序, $N N F I$ 或称为 $T L I$ 指数 ( Tucker \& Lewis's index) 是较常 用的指数; 但是当样本量少时 (例如, 低于 150 ), 则不建议使用, 例如可以改用 $I F I$ 指数。如果研究者采用的是 GLS 估计方法, 则 IFI 指数的表现较理想。 若以非中央卡方为基础来比较模型增量拟合 Ho 与 Bentler(1995)所称 的第三类型指数 , 较佳的选择是 $C F I$ 指数(又称为 $B F I$ 指数, Bentler, 1989 ; 或 RNI 指数, McDonald \& Marsh, 1990$)$ ;RMSEA 指数则是近年来逐渐被普遍 采用的指数, 因为 RMSEA 是第三类的非中央卡方指数当中不受样本分布影响的 指数。Hu 与 Bentler(1999)主张, CFI 指数与 RMSEA 指数都需报告在论文中。 当研究者想去估计统计检验力时, RMSEA 指数是非常适合的。当研究者想要比较 不同的模型, 但是没有嵌套关系时, 则可使用 $E C V I 、 A I C$ 或 $C A I C$ 指数。 在呈现这些数据时, 如果分析的模型很多, 可以利用表格来整理呈现, 做到 一目了然(读者可以参考本书范例中的整理方式, 或是其他论文的整理格式)。在 论文的文字叙述中, 可以写为 $\chi^2(128, N=284)=506.23, p<0.001, N N F I=0.89$, $C F I=0.91$ 的形态。在呈现 $\chi^2$ 数值时, 应一并报告自由度与样本量数据, 然后再就 数值的内容与意义加以说明。
当模型拟合指数显示某一个模型是适合的模型之后, 研究者应着手整理从该 莫型估计的最终解当中得出的各参数数据。Hoyle 和 Panter (1995) 指出, 参数 的报告应该尽可能充分翔实, 使得读者可以清楚地看出每一个参数的特性与代表 的意义, 三种重要的讯息一参数的合理性、显著性检验和标准化解一都应完 整地揭示。 首先, 参数估计的合理性反映的是该参数是否符合数学或统计学理上的可能 生, 或是实证资料的可能性。一般而言, 参数的方差是衡量参数估计数最重要的 资料。当残差的方差出现了负值 (称为海伍德 (Heywood) 现象) 或是超过范围 的协方差(当标准化的估计数大于 1 时)时,表示参数估计是有问题的。在报告 SEM 分析结果时, 如果有方差的数值, 都应在报告中予以揭示。 其次, 各参数的显著性检验数据应翔实列举。除了指出检验值的大小与显著 性以外 (例如, $t$ 检验值与 $p$ 值), 标准误也是重要的数据, 从标准误的大小中可 以看出参数估计是否存在潜在的问题。值得注意的是, 在 SEM 模型当中, 可能有某些参数被设定为固定值(例如, 被用来作为潜在变量量尺化的因素载荷通常 被设定为 $1.00$ ), 因此没有经过估计与显著性检验, 在说明显著性结果时, 亦应 予以标注说明。 最后, 标准化解的呈现通常是 SEM 分析最重要的一部分, 因为标准化解反 映了 SEM 模型中各参数估计的最后结果, 而且是以标准化的形式出现的。 一般而言, 在 LISREL 或 EQS 等软件里, 都会在报表的最后提供标准化解的 详细信息, 指出相关系数、因素载荷、回归系数等各项数值的结果。以 LISREL 为 例, 在分析完成之后, 可以要求列出标准化解的路径图, 以图示法来列出所有参数 的标准化解, 如图所示。
值得注意的是, LISREL 分析会产生两种不同的标准化解:一是以 SS ( standard solution) 指令所获得的标准化解;二是以 SC ( solution completely standardized ) 指令得到的完全标准化解。标准化解的数学原理是针对潜在变量 的方差估计数进行标准化, 也就是将潜在变量的估计数除以潜在变量的估计标 准差(以去除每一个潜在变量各有不同的变异情形的影响), 然后计算出所有参 数的数值。完全标准化解则是除了将潜在变量的数据加以标准化之外, 还将观 察变量的估计数加以标准化。也就是将每一个观察变量的数据除以各变量的标 准差(以去除每一个观察变量各有不同的变异情形的影响 ), 然后计算出所有参数的标准化估计数。对于不具有结构模型的 SEM 分析 (例如 CFA 分析), SS 与 SC 指令所得到的数据会完全相等。因对因素的标准化, 即对测量变量的标 准化。 一般研究在报告 SEM 的分析结果时, 多呈现完全标准化解, 使每一个参数 都具有标准化的性质, 例如, 因素载荷会落人 $\pm 1$ 的范围内。如果不是完全标准 化解, 某些数据可能会出现不寻常数值。但是, 在某些时候, 研究者仅关心结构 模型当中的参数估计, 例如路径模型分析, 此时标准化解已足够, 结构模型中的 参数应会落在合理的范围内, 不必针对所有观察变量进行标准化, 因为测量模型 的参数并不是研究报告的重点。过多的标准化会使数据失去原有测量的特性。 值得注意的是, 如果研究者输人数据时直接输人相关系数矩阵, 那么用 SS 或 SC 指令得到的标准化解都是完全标准化解, 因为相关矩阵本身就已经对所有 观察变量的数据进行了事前的标准化处理。
一般来说, SEM 分析很少只处理一个模型的估计。在一个研究当中, 除了基 本的模型之外, 还可能有一些替代模型, 代表不同的假设或理论模型, 经由模型 间的比较, 决定何者最能反映实际状态。而替代模型的运用有两种可能:第一是 由研究者基于理论观点而提出的假设模型;第二是估计结果所产生的数据所建议 的修正模型。前者是一种理论推导演绎的结果, 模型的提出与数据无关, 因此称 为演绎取向(deductive approach)或先验(priori )的替代模型; 后者是基于计量 数据所得到的替代概念, 例如由模型修饰程序所得到的修正模型均属此类, 因此 称为归纳取向(inductive approach)或事后(post-hoc)的替代模型。
最理想的 SEM 模型是基于理论观点提出的模型, 因此替代模型的提出最好 是能够运用演绎取向的策略。Jöreskog(1993)指出, 任何一个 SEM 模型都可 能具有其他的替代模型。因此, SEM 研究应善用替代模型的相互比较, 来决定 哪一个模型最能够反映实际观察数据, Jöreskog(1993)称之为替代模型取向 ( alternative models approach ) 的 SEM 研究。但是, 替代模型的提出是基于理论上 或概念上的考虑, 因此都是在分析进行之前即已经提出。
演绎取向的替代模型最重要的价值在于具有先验的理论基础。此外, 也正由 于模型的建立是在数据分析之前进行的, 因此模型的设定可以经过详细的计算与 安排, 不受限于资料的计量特性。在结果的分析上, 每一个替代模型的重要性和 理论内涵都十分清晰明确; 在操作层面上看, 可以免除许多人为操纵的疑虑, 减 少犯错的可䏍。
如果说演绎取向的替代模型是理论概念的言物, 那么归纳取向的替代模型就 是现实世界的产物, 虽然可能缺乏理论的正当性, 但是归纳取向所提出的替代模 型能够反映真实数据的特性, 得到的结果最符合真实世界的描述。此类研究被 Jöreskog ( 1993 ) 称为模型产生取向(model generating approach ) 的 SEM 研究。 在某些情况下, 归纳取向的替代模型分析有其必要性。例如, 当样本规模很 小时, 或是某些变量的测量质量较差时, 参数估计的稳定性不佳, 演绎取向所提 出的替代模型之间的比较难以进行。此时, 适当地利用参数的估计结果进行修 正, 可以让参数估计较为顺利。 其次, 当研究的性质偏向探索性研究时, 归纳取向的替代模型可以较演绎取 向的替代模型提出更多有建设性的信息。尤其在应用研究领域, 例如, 教育研 究、消费调查、管理研究等, 理论的引导性不如实际现象与数据具有启发性。此 时, 从研究数据反映的各项修饰建议所累积出来的假设模型更具有解释力。
使用归纳取向的替代模型比较, 有两个必须注意的事项。第一, 测量残差 的相关应谨慎, 即使修饰指数( $M I$ index ) 显示某些测量残差的相关甚为明显, 在没有合理的理由或理论观念的支持下,测量残差也是不宜设定在模型之中 的。残差相关的假设在追踪研究上比较容易看到, 因为同一个题目是在不同的 时间点测量的, 所以测量分数除了受到潜在变量的影响, 测量残差在不同的时 间也应具有一致性。因此, 测量残差的相关系数是有意义的。此外, 在 MTMM 研究中, 同一个测量题目受到不同来源的影响, 残差的相关可能代表方法效应 ( method effects), 因此残差相关也有设定上的理论意义。但是, 无论如何, 残 差相关的设定除非具有相当的合理性, 含则不应轻易为之。 第二, 对于残差与其他变量的相关, 也不应随意假设其存在, 因为测量残差 反映了测量误差的存在, 而且具有随机误差的特性。所以, 随机变异与其他变量 的关系的假设即使具有统计上的意义, 一旦被设定在模型之中, 整个模型也需要 讨论测量误差非随机性的问题, 增添了 SEM 分析与解释的复杂度。
一般而言, 模型的修饰必须在样本量很大的情况下才比较安全。一般规模 (例如, $100 \sim 400$ 个样本) 的 SEM 研究执行模型修饰都有相当的风险, 因为如 果换一个相同规模的样本来重复 SEM 估计, 所得到的修饰建议可能是不一样的。 此时, 由于样本有差异, 研究者所得到的结论也会有所不同, 这一个现象对于强 调理论合理性的 SEM 分析是最大的讽刺。
参考资料